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(54) Title: AUTOMATIC SYSTEM FOR SOUND AND IMAGE RECORDING 
(54) Titre: SYSTEME AUTOMATTQUE DE PRISE DE SON ET DAMAGES 
(57) Abstract 



The invention concerns an automatic system for 
sound and image recording in particular for videocon- 
ference, comprising means controlling (20) image and 
sound recording sensors (10) and sequence analysing 
means (40) monitoring said control means (20) to ob- 
tain automatic framing of the sequence being filmed. 
The invention is characterised in that an intelligent in- 
terface is provided for selecting a person or a group 
among the persons in the filmed sequence, at the re- 
quest of a participant, and automatic framing (30) on 
the basis of data supplied by the sequence analysing 
means (40), on the selected person or group. The in- 
vention is applicable to videoconferencing. 

(57) Abreg6 

L* invention conceme un systeme automatique 
de prise de son et d' images notamment pour visio- 
conference, comportant des moyens de commande (20) 
de capteurs de prise de vues et de son (10) et des 
moyens d* analyse de scene (40) pilotant ces moyens 
de commande (20) pour obtenir un cadrage automa- 
tique de la scene filmee. Selon 1' invention il est prevu 
une interface intelligente pour realiser la selection (30) 
d'une personne ou d'un groupe parmi des personnes de 
la scene filmee, sur commande d'un intervenant, et le 
de la scene (40), sur la personne selectionnee ou le groupe, 
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SYSTEME AUTOMATIQUE DE PRISE DE SON ET D f IMAGES 

L' invention concerne un systeme automatique de 
prise die son et d' images notamment pour la visio- 
conf 6rence. 

Le besoin de tels systemes se fait sentir surtout 
dans le domaine de la visioconf erence, mais peut 
fegalement etre int6ressant dans d'autres situations 
mettant en oeuvre de la prise de vue avec plusieurs 
personnes par exemple. 

II s'agit done de systemes avec lesquels les prises 
de son et de vue ne sont pas pilotees par une ou 
plusieurs personnes (cameraman et ing6nieurs du son 
dans le domaine de la television) mais par un 
equipement automatique. 

Dans le cas de la visioconf 6rence, un intervenant a 
cependant la possibility avec certains systemes equipfes 
d'une t616commande de piloter la prise de vue d'une 
camera, mais ces systemes presentent des inconvenients 
comme on va le voir dans la suite. 

En effet, des systemes de visioconf erence sont 
6quipes de moyens de prise de vues et de son, disposant 
d'equipements (cameras et microphones) qui ne sont pas 
orientables ou dont 1 'orientation est commandee par 
l f intermfediaire d'une t616commande. 

Dans des syst6mes de visioconf6rence existants, 
diverses cameras telfecommandables et controlables a 
distance via une communication serie sont utilises. 

La telfecommande permet de balayer continflment le 
site et l'azimut de la camera ainsi que de faire varier 
continflment le zoom de la camera. L' orientation de la 
camera dans la direction occupee par une personne ou un 
groupe de personnes est possible, mais malaisee. 
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Des directions de l'espace (aux nombres de six pour 
les deux cameras ) peuvent §tre mfemorisees par la 
camera. La camera peut 6tre dirig6e dans l'une de ces 
directions par activation d'une touche de la 
t61ecommande ou par controle du port s6rie. L'int6ret 
de cette fonction est d'acc^der directement k une 
direction de l'espace sans avoir a agir par combinaison 
de touches successives (site, azimut) . Ainsi, lorsque 
les positions de l'espace preenregistrees correspondent 
a des places autour d'une table, 1 'utilisateur de la 
t£lecommande peut simplement passer d'une personne a 
une autre . 

II existe egalement des systemes reposant sur la 
localisation acoustique selon lesquels 1 ' orientation 
d'une camera est pilotee a partir de 1' analyse 
acoustique. de la scene. 

L' analyse acoustique de la sc&ne est obtenue a 
partir de plusieurs microphones qui permettent de 
determiner la direction des sources sonores, voire des 
sources de parole. La direction des sources de parole 
etant identifiee, elles pourraient §tre selectionnees 
une a une, puis etre suivies dynamiquement . La fonction 
Lime Light de Picture Tel, entreprise qui realise et 
commercialise des systemes de visioconf erence, est 
basee sur la localisation acoustique et permet la 
detection et le suivi d'une source sonore et 
1 'orientation dynamique d'une camera. 

II existe egalement des systemes reposant sur la 
localisation visuelle de personnes. Cette localisation 
visuelle est bas&e sur 1' analyse par traitement d' image 
issue de la camera. 

Si le champ de la camera est suffisamment large, et 
le systeme performant, toutes les personnes presentes 
seront detectees. A la difference de la localisation 



WO 00/13417 



3 



PCT/FR99/02047 



acoustique, la localisation visuelle beneficie de la 
permanence des visages a I 1 image et de 1' absence de 
reflexion (absence de miroirs dans les salles de 
visioconference et dans les lieux habituels de prise de 
5 vues) . Plusieurs techniques peuvent etre utilis6es 
separ6ment ou non pour d§tecter des personnes : 
detection de mouvement, detection de la teinte de la 
peau, detection de formes ovales, detection globale de 
visages (par reseau de neurones par exemple) , detection 
10 d f attributs de visages tels les yeux, la bouche. 

Un certain nombre de systemes de detection de 
visages existe et certains associent une fonction de 
prise de vue automatique. On peut citer a titre 
d'exemples les systemes qui sont decrits dans les 
15 publications suivantes : 

PI - M. Collobert, R. Feraud, G. Le Tourneur, O. 
Bernier, J.E. Viallet, Y. Mahieux, D. Collobert, 
"LISTEN : a System for Locating and Tracking Individual 
Speakers", 2nd Int. Conf. On Automatic Face and Gesture 
20 Recognition, Killington, USA, October 1996, pp 283-288, 
P2- Hunke, Locating and Tracking human faces with 
neural network, Technical Report CMU-CS-94-155, 1994. 

P3 - Yang, Wu, Waibel, Focus of attention in video 
conferencing, Technical Report CMU-CS-96-150, 1996. 
25 Cependant, parmi tous les systemes qui viennent 

d'etre decrits, un grand nombre presente des 
inconvenients ou de toute fagon ne sont pas 
satisfaisants pour les besoins qui se font sentir 
actuellement et qui sont precises dans la suite. 
30 - En effet, les systemes ayant une fonction de 

balayage de site, azimut et focale au moyen d'une 
tel6commande pr^sentent les inconvenients suivants : 

Pour obtenir un cadre adapte, 1 ' utilisateur doit 
appuyer successivement sur plusieurs touches de la 
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t£16commande (site, azimut et zoom) avant d'obtenir le 
r6sultat desire. Cette fonctionnalite est peu pratique, 
lente, sujette a des erreurs de manipulation et est 
done peu utilisee. Elle est de fait impraticable si 
5 l'on souhaite adapter periodiquement ou continQment le 
cadre de la camera a une personne qui se deplace ou un 
ensemble de participants qui naturellement bougent. De 
la meme manidre, cette fonctionnalite est £galement 
impraticable quand on souhaite changer regulierement de 
10 personne. 

- La fonction acces par la telecommande a des 
directions preenregistrees de I'espace presente les 
inconvenients suivants : 

Le premier inconvenient est lie au fait que les 
15 positions doivent etre preenregistrees. Elles ne 
peuvent done etre rapidement continOment modifi£es. 

Le second inconvenient est de supposer que les 
personnes occuperont bien les positions preenregistrees 
et qu' elles n'en bougeront pas. Dans la pratique et 
20 m§me en fixant les chaises au sol, on constate que les 
personnes bougent et done sont rarement au centre du 
cadre, voire sortent du cadre si celui-ci est serre sur 
la personne. Cet inconvenient est manifeste dans le 
cadre du syst&ne de visioconf 6rence ou spontanement les 
25 personnes sortent du cadre defini par les directions 
pr6enregistr6es de I'espace. 

L' inconvenient suivant est que cette fonctionnalite 
d 1 orientation de la camera dans une direction de 
l f espace n f associe pas toujours de focale specif ique. 
30 Ainsi, l'utilisateur de la telecommande doit actionner 
les touches de controle de la t616commande pour adapter 
la taille du cadre & la position ef f ectivement occup£e 
par une personne. En effet, si la personne a tendance a 
sortir du cadre, en passant a une focale plus courte, 
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cette personne revient dans le cadre sans avoir besoin 
de changer la direction de l'espace dans laquelle 
pointe la camera, Mais alors le cadre n'est plus serre 
sur la personne et, il y a eventuellement plusieurs 

5 personnes dans le cadre. 

Lorsqu'il est possible d'associer et de memoriser 
une focale a chacune des directions memorises de 
l'espace, cela implique que d'une part, 1 'utilisateur 
determine au pr^alable la focale qu'il estime adaptee 

10 et d' autre part, la memorise. D' autre part, cetf:e 
focale enregistree est fixe et done non adaptative et, 
comme pour la direction, plus ou moins simplement 
modifiable. 

La fonctionnalite d'acces a des directions 
15 predetermines de l f espace peut convenir a certaines 
situations stables (telesurveillance) , mais ne permet 
pas de s' adapter a une situation particuli£re . La 
camera pointe dans la direction de l f espace, mais ne 
sait rien du contenu de l'espace, qu f il soit occupe par 
20 une personne ou vide. 

Un autre inconvenient, secondaire, est le nombre 
limite a 6 directions de l'espace qui peuvent etre 
m&morisees par la camera et done accessibles par la 
t^lecommande. Get inconvenient est en general r^solu en 
25 memorisant ces directions dans un ordinateur et en 
utilisant une telecommande avec un plus grand nombre de 
touches. 

La localisation acoustique pr^sente les 
inconvenients suivants : 
30 En raison de la presence de sources sonores 

parasites (bruits de chaises, de portes, 
d'appareils, ...) superposees a la parole des personnes 
presentes et en raison de reflexions multiples des 
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sources acoustiques sur les murs, la localisation 
acoustique est souvent peu precise. 

D" autre part, l'activite acoustique de parole est 
par nature intermittente (lorsqu'une personne s'arrete 
5 de parler pour ecouter) . 

Enfin, la localisation acoustique est sensible a 
l 1 amplitude de la source sonore. 

La localisation visuelle presente les inconvenients 
suivants : 

10 Le principal inconvenient de la localisation 

visuelle est lie a la complexity des algorithmes, a 
leur rapidity et a leur robustesse. Neanmoins, 
plusieurs systemes sont operationnels soit sur station 
de travail soit ordinateur personnel (PC) comme les 

15 systemes dfrveloppes par le dfeposant, ou comme dans les 
publications citees pr&cedemment par le deposant. 

La fonction de prise de vue automat ique d'un groupe 
de personnes realis§e par le deposant est, a I 1 usage, 
particulierement utile bien que complexe. Le cadre 

20 s'adapte en permanence au nombre et la position des 
participants d'une visioconference. 

Cependant, il apparait a 1' usage, que bien que plus 
performant et plus satisfaisant que tous les autres, il 
soit insuffisant car, comme cela a ete dit, des besoins 

25 se font sentir sur les possibilites d'effectuer & la 
demande un cadrage automatique sur l'un ou 1' autre des 
participants et de pouvoir revenir tout simplement au 
cadre general . 

L f invention propose pour cela une interface 

30 intelligente apte a realiser la selection d'une 
personne (ou d'un groupe de personnes) parmi les 
personnes de la scene filmee, sur la commande d'un 
intervenant, et le cadrage automatique a partir des 
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informations fournies par 1' analyse de la scene, sur la 
personne s61ectionnee (ou le groupe de personne) . 

L' invention a done pour objet un systeme 
automatique de prise de son et d' images notamment pour 
5 visioconf&rence, comportant des moyens de commande de 
capteurs de prise de vues et de son et des moyens 
d 1 analyse de scene pilotant ces moyens de commande pour 
obtenir un cadrage automatique de la scene film6e. 

Le systeme comporte des moyens de selection d'une 
10 personne ou d'un groupe de personnes parmi les 
personnes de la scene filmee et des moyens de cadrage 
automatique a partir des informations fournies par les 
moyens d' analyse de la scene, sur la personne 
selectionnee ou le groupe de personne, 

15 L r invention a plus particulierement pour objet, un 

systeme automatique de prise de son et d' images 
notamment pour visioconf erence, comportant des moyens 
de commande des capteurs de prise de vues et de son , 
des moyens d' analyse de scene pour fournir des signaux 

20 de position aux moyens de commande, des moyens de 
selection d'une personne ou d'un groupe parmi des 
personnes de la scene filmee, 

-principalement caracterise en ce que les moyens 
de selection comportent une interface physique 

25 comprenant une commande a distance apte a permettre la 
selection de l'une quelconque des personnes de la sc6ne 
ou d'un groupe, pour avoir un cadrage automatique 
autour de cette personne ou du groupe, ou de 
selectionner 1" ensemble des personnes pour avoir un 

30 cadrage general de la scene ; 

- et en ce que les moyens de cadrage comportent une 
interface logique apte a etablir une correspondance 
entre la personne selectionnee par la commande a 
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distance et les informations de position issues de 
1' analyse de scene pour fournir aux moyens de commande 
les informations de position de cette personne ou du 
groupe par rapport a la scene filmee. 
5 Selon un mode de realisation de 1' invention, la 

commande & distance est une telecommande universelle, 
activant un dispositif apte a emettre des signaux de 
commande a 1' interface logique 

Les signaux 6mis par la telecommande peuvent etre 
10 infra rouge ou electromagnetiques . 

Les signaux de commande de ladite telecommande 
peuvent etre regus et re-emis par un emetteur- 
recepteur. 

Les signaux de commande de ladite telecommande 
15 peuvent §tre regus et re-emis par un dispositif de 
reconnaissance de la parole ou de reconnaissance de 
geste 

La commande a distance peut etre r&alisee par la 
t£16commande de la camera d' analyse d' image, les 
20 signaux de commande de ladite telecommande etant regus 
et re-emis par la camera d' analyse vers 1' interface 
logique . 

Selon un autre mode de realisation, la commande a 
distance est une telecommande universelle, les signaux 
25 de commande de ladite telecommande etant regus et re- 
emis par la camera d' analyse. 

Selon un autre mode de realisation, la commande a 
distance comprend une interface graphique. 

La commande a distance comporte en outre , dans ce 
30 cas, un ecran sur lequel sont visualisees la scdne et 
les differentes zones selectionnables . 

La commande a distance comporte un periph6rique 
d' entree/sortie d'ordinateur pour selectionner les 
zones reperees. 
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Dans un mode de fonctionnement, il peut etre prevu 
que les moyens d' analyse de scene regoivent un signal 
d' analyse local (A), que les moyens de selection 

5 permettent alors de selectionner une personne ou un 
groupe de personnes de la scene filmee localement et 
que les moyens de cadrage automatique utilisent les 
informations de la scene film6e localement. 

Dans un autre mode de fonctionnement, il peut Stre 

10 prevu que les moyens d' analyse recoivent un signal (A* ) 
d'un systeme distant pour ou correspondant a l 1 analyse 
de scene et que les moyens de selection permettent 
alors de selectionner une personne ou un groupe de 
personnes de la scene film6e a distance et les moyens 

15 de cadrage automatique permettent de piloter le cadrage 
de la sc6ne filmee a distance, les signaux de commande 
etant transportes vers le systeme distant. 

D'autres avantages et particularity de 1* invention 
20 apparaitront a la lecture de la description qui est 
donnee a titre indicatif et nullement limitatif et en 
regard des dessins annexes sur lesquels : 

- la figure 1, represente un schema de principe de 
1' invention, 

25 - la figure 2, represente un schema plus d£taill6 

de l f invention, 

- la figure 3, represente un mode de realisation 
particulier pour 1' interface physique, 

- la figure 4, represente un autre mode de 
30 realisation pour 1' interface physique, 

la figure 5, represente un autre mode de 
realisation de 1' interface physique, 

la figure 6, represente un autre mode de 
realisation de 1' interface physique, 
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la figure 7, repr^sente un autre mode de 
realisation de 1' interface physique. 

Sur la figure 1 on a represents de fagon 
5 schematique un systeme automatique de prise de son et 
d' images dans lequel on dispose de ressources 
audiovisuelles 10 pour filmer et capter le son d'une 
scene 50. 

Dans le cas d'un systeme de visioconf §rence la 
10 scene est composee d'une ou plusieurs personnes dites 
intervenants Pl-Pn sur un site, d§sirant communiquer 
avec d'autres personnes d'un site distant. 

Les ressources audiovisuelles 10 sont constitutes 
par des capteurs audio et visuels. 
15 Les capteurs audio sont par exemple une s6rie de 

microphones places a proximite des intervenants. Les 
capteurs video sont constitues par une ou plusieurs 
cameras filmant la scene. 

Les ressources audiovisuelles 10 sont pilot6es par 
20 un dispositif de commande 20 classique, apte a fournir 
les signaux de commande aux capteurs 10 selon les 
informations regues en entree par 1 1 interface 30 comme 
cela est detaille dans la suite. 

Conformement a 1' invention, les informations regues 
25 en entree sont fournies par 1' interface 30 a partir du 
dispositif d' analyse de scene 40 et de la selection 
effectu^e par un intervenant. 

Le dispositif d' analyse de scene peut etre soit 
audio, soit visuel, soit audiovisuel associe a des 
30 capteurs visuels ou audiovisuels . 

Dans 1' exemple de realisation qui est donne, ce 
dispositif est un dispositif visuel existant. A cette 
fin, on utilise une camera d' analyse fixe 60, (la 
camera peut etre mobile), qui permet de fournir le 
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signal requis servant a effectuer une analyse de la 
scene visuelle observee. 

Le dispositif d 1 analyse de la sc£ne comprend par 
consequent a cet effet, la camera 60 et des moyens de 
5 traitement 40 du signal A fourni par cette camera. Ces 
moyens sont realises par exemple par un micro- 
ordinateur ou une station de travail equipee d'un 
programme specif ique, existant, d' analyse de sc6ne. 

De fagon plus precise selon 1' exemple de 
10 realisation mis en pratique, les visages des personnes 
presentes dans le champ visuel, sont detectes par un 
reseau de neurones, puis ledit programme met en oeuvre 
un algorithme qui suit les visages detectes. D'autres 
techniques connues peuvent etres utilis6es. 
15 Selon un autre mode de realisation, on peut 

utiliser un dispositif d' analyse de la scene 40 avec 
une camera mobile. 

Selon un troisi&me mode de realisation, on peut 
utiliser ou r^aliser un dispositif d 1 analyse de la 
20 scene utilisant plusieurs cameras fixes ou mobiles. 

Les differents capteurs 10 sont commandes par un 
dispositif de commande 20 qui regoit des signaux de 
commande de 1' interface 30 conformement a la presente 
invention. 

25 Dans le mode de realisation qui a et6 realise, 

illustre par le schema de la figure 2, il s'agit d'un 
dispositif de commande 20 d'une camera motorisee 11 qui 
assure la prise de vue et d'une antenne acoustique 12 
qui assure la prise de son. 

30 On va detainer ci-dessous, la prise de vue et de 

son pour un ensemble de personnes et pour une seule 
personne, ce qui correspond a des realisations 
effectives pour le deposant. 
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Les memes techniques peuvent etre mises en oeuvre 
pour une prise de vue et de son concernant un groupe de 
personnes ; le groupe est un sous-ensemble de 
l 1 ensemble des personnes. 

5 Dans le mode de realisation prefere qui a ete 

realise, 1' analyse de la scene est visuelle, c'est-a- 
dire que I'on determine la position des personnes mais 
on ignore si elles parlent. 

Dans un autre mode de realisation impliquant une 

10 analyse audiovisuelle (incluant done le son ) les 
dispositifs de prise de son seront sfelectionnes a 
partir des informations audiovisuelles . 

Lorsque 1 1 utilisateur du systeme demande, a travers 
1' interface 30, une prise de vue sur 1' ensemble de 

15 personnes Pl-Pn, le dispositif de commande 20 commande 
la camera 11 de manidre a ce que l f ensemble des 
personnes, presentes dans le champ d' analyse soient 
cadrees, en respectant les regies de I'art de la prise 
de vue dans la mesure oil les contraintes de la camera 

20 11 1 ' autorisent . 

Lorsque 1 ' utilisateur du systeme demande, a travers 
l f interface 30, une prise de vue sur une personne en 
particulier, le dispositif 20 commande la camera 11 de 
maniere a ce que la personne, en respect avec les 

25 regies de la prise de vue, soit lateralement centree, 
que ses yeux soient approximativement au tiers 
super ieur de 1' image par exemple. 

Dans un mode de realisation mis en oeuvre, la 
personne s§lectionnee etant encadree par un ou 

30 plusieurs voisins, la prise de vue cherche a isoler 
cette personne des autres £ l 1 image, dans la mesure ou 
les contraintes liees a la camera et aux regies de la 
prise de vue 1" autorisent. 
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Lorsque 1 'utilisateur demande, a travers 
1' interface 30 une prise de son sur 1' ensemble des 
personnes, le dispositif 20 commande la prise de son de 
maniere a capter le champ sonore des differents 
5 participants. Ce champ sonore peut etre obtenu de 
differentes manieres : 

1) A partir d'un champ large realise par 
1' antenne acoustique 12 ; 

2) Par sommation des champs sonores issus de 
10 differents dispositifs de prise de son (microphones ou 

antenne acoustique), dispositifs selectionnes a partir 
de 1* analyse de la scene. 

Lorsque 1 'utilisateur demande, a travers 
1" interface 30, une prise de son sur une personne, le 
15 dispositif 20 commande la prise de son de maniere a 
capter le champ sonore des differentes personnes. Ce 
champ sonore peut etre obtenu de differentes manieres : 

1) A partir du champ etroit et orientable de 
1' antenne acoustique 12. C'est le mode de realisation 

20 realise decrit precedemment ; 

2) A partir d'un ou plusieurs dispositifs de 
prise de son, dispositifs selectionnes a partir des 
informations visuelles ou des informations 
audiovisuelles . 

25 1/ interface 30 permet a 1 'utilisateur du systeme 

d'obtenir une prise de vue et de son conformes a sa 
demande (un plan large sur l 1 ensemble des personnes, un 
plan serre sur une personne particuliere) . L' envoi 
d'une commande issue de 1' interface, declenche la 

30 commande d' orientation des capteurs de prise de son et 
de vue, en fonction de la sc£ne audiovisuelle, analysee 
par le dispositif d' analyse de scene. 

A cette fin, 1 ! interface comporte une interface 
logique 31 et une interface physique 32. 
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L' interface physique 32 peut etre realisee selon 
diff6rents modes de realisation d6crits dans la suite a 
propos des figures 3 a 7, 

L 1 interface logique 31 est, selon un mode de 
5 realisation preferentiel, constitu6e par un programme 
charge dans le systeme de traitement du signal 
d' analyse de scene 40. Cette interface logique 31 
recupere des informations de position des personnes sur 
la scene issues de traitement d' analyse de scene et 
10 etablit une correspondance entre ces informations de 
position et les informations de selection donnees a 
travers 1' interface physique par 1 ' intervenant . 

Cette interface logique 31 interprete (c'est a dire 
qu'elle decode) les informations regues de 1' unite 40 
15 pour fournir des signaux de commande de position 
interpretables par le dispositif de commande 20 afin 
d'effectuer le cadrage desire autour de la personne 
selectionnee ou du groupe. 

Plusieurs modes de realisation de 1' interface 
20 physique 32 sont done donnes dans la suite. 

Un premier mode de realisation comprend une 
interface graphique 32A installee sur un micro- 
ordinateur ou station de travail P comme represents sur 
la figure 3. 

25 Avec une souris 320, 1 1 utilisateur choisit 

d'obtenir une prise de vue et de son sur l f ensemble des 
personnes de la scene, en cliquant sur une fenfitre 
nommee "Ensemble", reference E. Avec une souris, 
1' utilisateur choisit d'obtenir une prise de vue et de 

30 son sur une personne de la sc£ne, en cliquant sur une 
fenetre portant le numero de la personne desiree Pl-Pn 
ou du groupe de personnes. 

Sur cette interface graphique 32A le libelle en 
chiffre des personnes peut etre remplace par 1* image de 



WO 00/1341 7 



15 



PCT/FR99/02047 



la personne 321 obtenue par le systeme d* analyse. Cette 
image est obtenue soit a un moment fixe par 
l 1 utilisateur du syst&ne, soit elle est automatiquement 
rafraichie au cours de la reunion. 
5 Une interface graphique 32A avec 1' image des 

personnes 321 est plus ergonomique pour 1 'utilisateur, 
car l f interface affiche les prises de vues que peut 
selectionner 1 'utilisateur . 

On peut egalement prevoir un affichage par 
10 incrustation sur l'ecran de visioconf erence, en format 
rSduit, de 1" image des personnes presentes avec des 
num6ros, a la visioconf erence et, la selection alors au 
moyen d'une telecommande. 

Dans un autre mode de realisation, la souris 320 
15 peut etre remplacee par un ecran tactile et/ou par un 
dispositif de reconnaissance de la parole R. 

Un autre mode de realisation r6alis§ pour 
1' interface physique 32 est represents par la figure 4. 
Selon ce mode de realisation, on detourne 1' usage de la 
20 telecommande 32B de la camera d' analyse de la sc&ne 
visuelle 60 pour permettre a 1' utilisateur du systeme 
d' envoy er des signaux de commande a la camera 60. Le 
detournement et 1 'utilisation de cette telecommande a 
§te realise pour des raisons de facilite et de rapidity 
25 de mise en oeuvre. 

La t61ecommande infrarouge 32B est en communication 
(commandes CDE) avec la camera d f analyse 60. Cette 
telecommande de camera d' analyse dispose d'un certain 
nombre de touches dont notamment des touches 
30 correspondant a des memoires de position et une touche 
"home" H correspondant a la position de repos de la 
camera. 

Les memoires de position ne sont pas utilisees en 
tant que telles pour pointer des directions de 
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l'espace, mais on n' utilise que le fait que les touches 
sont activ£es. 

Les positions des memoires de position sont 
prealablement initialisees par le systeme, a la 

5 position de repos de la camera. La camera d* analyse 
6tant fixe dans un des modes de realisation, le 
d6clenchement des positions 1 a 6 ou de la touche 
"home" H n'a pas d'effet sur la position de cette 
camera d' analyse 60, 

10 Ainsi, en appuyant par exemple sur la touche "home" 

H, 1 'utilisateur dfeclenche via les dispositifs 60, 40, 
30 et 20, une prise de vue et de son sur 1" ensemble des 
personnes presentes dans la scene. 

Et, en appuyant sur 1'une des touches de 1 a 6 

15 correspondant a la mfemoire des positions, 1 1 utilisateur 
dfeclenche via les dispositifs 60, 40, 30, et 20, une 
prise de vue sur la personne correspondante (6 
personnes maximum dans cette version) . 

D'autres telecommandes peuvent §tre utilisees 

20 qu'elles utilisent ou pas la camera d' analyse en tant 
que relais de transmission. 

On peut par exemple utiliser une telecommande a 
programmation universelle a la place de la telecommande 
de la camera d' analyse, pour permettre a 1 'utilisateur 

25 de selectionner la prise de vue et de son. Ce mode de 
realisation n'est pas illustre car il correspond au 
schema de la figure 4 a ceci pr£s que la telecommande 
32B est dans ce cas une telecommande universelle. 

Dans une phase pr^paratoire du materiel en vue de 

30 mettre en oeuvre 1 1 application, on aura au prealable 
enregistre dans la telecommande universelle certains 
des codes de la camera d 1 analyse (memoire de position, 
"home", ...). Lors de 1 'utilisation effective de la 
telecommande 32B, les signaux infrarouges envoyes par 
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la telecommande sont decodes et analyses par 
1' interface logique 31. 

L' utilisation d'une telecommande universelle, 
permet d'une part, de rendre indisponibles certaines 

5 commandes de la camera d' analyse 60 (la telecommande 
universelle n'apprend pas les codes correspondants) , et 
d f autre part, d' avoir des touches dont le libelle 
correspond mieux a la demande de 1 'utilisateur : Ainsi, 
des touches " + " et "-" permettent a 1 'utilisateur de 

10 zapper d'une personne a une autre, comme il a 
1' habitude de le faire avec les chaines de television. 

On va se reporter maintenant au schema de la figure 
5 qui correspond a un autre mode de realisation 
conforme a 1' invention. 

15 Afin de ne pas dfependre de la camera d' analyse en 

tant que relais entre la telecommande et 1' interface 31 
et pour offrir & 1 'utilisateur une palette de commande 
plus riche, on peut utiliser un dispositif emetteur 
recepteur 70 du commerce. 

20 Cet emetteur-recepteur 70 capte des signaux 

infrarouges CDE issus de la telecommande 32B et renvoie 
des codes vers 1' interface logique 31, par exemple a 
t ravers un port de communication RS232, connects a 
l f interface 30. 

25 La figure 6 illustre un mode de realisation selon 

lequel 1' interface physique 32 comporte une commande a 
distance par la voix 32B associee a un dispositif de 
reconnaissance de la parole 80 existant. 

La figure 7 illustre un mode de realisation selon 

30 lequel 1' interface physique 32 comporte une commande a 
distance par le geste 32B associee a un dispositif de 
reconnaissance du geste 90 existant. 

Les precedents modes de realisation de 1' interface 
permettent a un utilisateur de selectionner les prises 
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de vue et de son obtenues avec les capteurs 
physiquement presents dans la salle ou se trouve 
I'utilisateur. Cela est symbolist par le signal A 
(local) servant a 1' analyse de la scene sur la figure 
5 1. 

Dans un autre mode de realisation, les interfaces 
31, 32 precfedemment decrites permettent de commander 
les capteurs de prise de vue et de son physiquement 
presents dans une salle distante ( ou ne se trouve pas 

10 I'utilisateur), la salle avec laquelle il est en 
visioconference par exemple. 

Ainsi, I'utilisateur participant a une 
visioconference, selectionne et obtient les prises de 
vue et de son desirees. Pour cela, le signal A' 

15 (distant) pour I 1 analyse de sc6ne ou correspondant a 
1' analyse (signal deja analyse par un systeme distant 
depourvu du signal vid§o) sera applique a une entree du 
dispositif d' analyse 40. 

Dans ce mode de realisation, les signaux C emis 

20 par la tel§commande infrarouge ou par 1 T interface 
graphique (et les signaux necessaires a la constitution 
des images de 1' interface graphique) sont transportes 
avec 1' image, le son et les autres signaux de la 
visioconference . 

25 Dans ce mode de realisation, l'eventuel conflit de 

commande des capteurs entre la salle locale et la salle 
distante doit etre gere. 
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REVENDICATIONS 

1. Systeme automatique de prise de son et d f images 
notamment pour visioconf 6rence, comportant des moyens 
de coromande (20) des capteurs de prise de vues et de 
son (10), des moyens d'analyse de scene (40) pour 
5 fournir des signaux de position aux moyens de commande 
(20), des moyens de selection (30) d'une personne ou 
d'un groupe parmi des personnes de la scene film6e, 

- caracterise en ce que les moyens de selection 
comportent une interface physique (32) comprenant une 

10 commande a distance (32A, 32B) apte a permettre la 
selection de l'une quelconque des personnes de la scene 
ou d'un groupe, pour avoir un cadrage automatique 
autour de cette personne ou du groupe, ou de 
selectionner 1' ensemble des personnes pour avoir un 

15 cadrage general de la scene ; 

- et en ce que les moyens de cadrage comportent une 
interface logique (31) apte a etablir une 
correspondance entre la personne selectionnee par la 
commande a distance (32A ou 32B) et les informations de 

20 position issues de 1' analyse de sc6ne pour fournir aux 
moyens de commande (20) les informations de position de 
cette personne ou du groupe par rapport a la sc6ne 
f ilmee. 

25 2. Systeme selon la revendication 1, caracterise en 

ce que la commande h distance (32B) est une telecommande 
universelle, activant un dispositif apte a emettre des 
signaux de commande a 1' interface logique (31) . 

30 3 .Systeme selon la revendication 2, caracterise en 

ce que les signaux de commande de ladite telecommande 
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(32B) sont regus et re-emis par un emetteur-recepteur 
(70) . 

4. Systeme selon la revendication 2, caract6ris6 en 
5 ce que les signaux de commande de ladite telecommande 
(32B) sont regus et re-emis par un dispositif de 
reconnaissance de la parole (80) ou de reconnaissance 
de geste (90) . 

10 5^ systeme selon la revendication 1, caracterise en 

ce que la commande a distance (32B) est la telecommande 
de la camera d'analyse d'image (60), les signaux de 
commande de ladite telecommande (32) 6tant regus et re- 
emis par la camera d'analyse (60) vers 1' interface 

15 logique (31) . 

6. Systeme selon la revendication 1, caracterise en 
ce que commande a distance (32B) est une telecommande 
universelle, les signaux de commande de ladite 

20 telecommande (32B) 6tant regus et re-emis par la camera 
d'analyse (60) . 

7. Systeme selon la revendication 1, caracterise en 
ce que la commande a distance comprend une interface 

25 graphique (32A) . 

8. Systfeme de visioconf erence selon la 
revendication 7, caracterise en ce que la commande a 
distance comporte en outre un ecran (321) sur lequel 

30 sont visualises la scene et les differentes zones 
selectionnables . 



9. Systeme selon la revendication 7, caracterise en 
que la commande a distance comporte un p£riph£rique 
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(320) d' entree/sortie d'ordinateur pour selectionner 
les zones reper6es. 

10. Systdme de visioconf 6rence selon l'une 
5 quelconque des revendications pr6c6dentes, selon lequel 

les moyens d' analyse de scdne regoivent un signal 
d' analyse local (A), caract6rise en ce que les moyens 
de selection permettent de selectionner une personne ou 
un groupe de personnes de la scene film£e localement et 
10 en ce que, les moyens de cadrage automatique utilisent 
les informations de la scene filmee localement. 

11. Systeme de visioconf erence selon l'une 
quelconque des revendications precedentes recevant un 

15 signal (A') d'un systeme distant pour ou correspondant 
a 1' analyse de scene, caracteris6 en ce que les moyens 
de selection permettent de selectionner une personne ou 
un groupe de personnes de la scene filmee & distance et 
en ce que les moyens de cadrage automatique permettent 

20 de piloter le cadrage de la scene filmee a distance, 
les signaux de commande etant transportes vers le 
systeme distant. 
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